#coding:utf8
from pyspark import SparkContext,SparkConf

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd = sc.parallelize([("a",1),("b",2),("c",3),("a",2),("b",3),("c",4)],3)

    print(rdd.glom().collect())
    # 修改分区数量，注意修改分区会影响并行计算，建议不常用（增加分区会导致增加shuffle）
    print(rdd.repartition(1).sortBy(lambda x: x[1]).glom().collect())